查看原文
其他

三千年前的古文字被 AI 破译,MIT 和谷歌开发失传语言的机器翻译系统

大数据文摘编译 HyperAI超神经 2019-12-25
本文授权转载自大数据文摘 | BigDataDigest
文章有部分改动

文字是文明的重要标志和载体,古老的文明都拥有自己的文字。沿着文字的变迁,我们能够追溯历史的进展。

然而,文字会随着文明的毁灭而失传。面对古文明留下的符号,无人能够解读,甚至语言学家也很难破译。它们就像神秘的密码一样,复杂而神秘。

世界上最古老的文字之一楔形文字

令人欣喜的是,AI 技术正在尝试翻译这些古老失传的文字。麻省理工学院和谷歌人工智能实验室的研究人员提出了一种自动破译失传文字的神经网络算法。

这一算法首次实现了古希腊迈锡尼文明时期「线形文字 B」的自动翻译,准确地把  67.3% 的线形文字 B 同源词翻译成了希腊语,翻译结果比传统方法提升了 5.5%。

语言学家对 A 类线形文字的翻译

克里特文字:世界最难破译古文字之一


1886 年,英国考古学家亚瑟·伊万斯偶然间发现了一块刻印着未知语言的石头。得知这块石头来源于希腊的克里特岛后,伊万斯立马动身前往此处,以搜寻更多证据。

克里特岛有大量的希腊文化遗址

在那里,他马上就发现了许多笔迹相似的石碑,这些石碑能追溯到公元前 1400 年左右,碑上的刻字也就成为目前发现的最早的书写形式之一。伊万斯表示,这种线形形式是从早期艺术中粗糙的线条画演变而来,在语言史上占有重要地位。

石碑上的古老线形文字,谁能破解


伊万斯等人后来证实,石碑上的刻字是两种不同的文字系统。稍古老的一种称为 A 类线形文字,可以追溯到公元前 1800 年至 1400 年,此时克里特岛还处于青铜时代的米诺文明阶段。

时间上更近一点的文字系统称为 B 类线形文字,公元前 1400 年后才出现。此时的克里特岛正被希腊大陆的迈锡尼人统治着。


许多年来,伊万斯等人一直试图翻译这些古老的文字,但都无疾而终。


直到 1953 年, B 类线形文字才被一个名叫迈克尔·文特里斯的业余语言学家成功翻译。

破译 B 类线形文字的两个假设


文特里斯的成功建立在两个决定性突破上。第一,他假设 B 类线形文字中重复出现的词语是克里特岛的地名——这在其后被证明是正确的。

第二,他假设这些刻字是古希腊语的早期形式——这让他能够立即翻译出 B 类线形文字的其他部分。在翻译过程中,文特里斯表示,古希腊语的书面表达形式比之前预想的还要早几个世纪。

国外的古文字研究大多基于符号学方法进行研究


文特里斯的工作成果是一项巨大的成就。但像 A 类线形文字这样的更为古老的文字系统,到今天为止仍然是语言学上一个亟需解决的难题。

通过机器学习绘制特定语言的联结


面对这个令众多语言学家束手无策的难题,机器翻译提供了一个全新的思考角度。

近年来,注释数据库和机器学习技术的飞速发展,对语言学习产生了革命性的影响。这也为一直尝试破译古文字的科学家们提供了新的思路:能使机器翻译运行的重要原理是,不同语言的单词在他们各自的参数空间中占据着相同的点。这使得「把一种语言完全翻译成另一种语言,构成一对一的映射」成为可能。

基于此,来自麻省理工学院的罗家明(音译)和 Regina Barzilay,以及来自加州山景城谷歌人工智能实验室的曹源(音译),以历史语言学中记录的语言变化模式为依据,利用序列对序列表达模型捕获同源词之间的字符级对应关系,建立了一种自动破译失传古文字的神经网络算法。
论文题目:《Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B》
论文地址:https://arxiv.org/pdf/1906.06718.pdf

Regina Barzilay 是 MIT 教授,研究兴趣是自然语言处理
深度学习化学和肿瘤学的应用


他们所利用的方法与标准机器翻译技术有着显著区别。首先需要知道,不管哪种语言,机器翻译的关键都在于认识到文字间联结的相似性。因此整个过程是从绘制特定语言的联结开始,这需要庞大的文本数据库,机器在这个文本数据库中查验每个字符与其他字符在多大频率上联结在一起。

这种表现非常独特,它在多重参数空间上定义了这个词语。实际上,这个词语可以视为空间内一个向量,这个向量在机器对任何语言的翻译结果中都起到重要的约束作用。


这些向量遵循着简单的数学规则,举例而言,国王(king)-男性(man)+女性(woman)=王后(queen)。所以,一句话可以认为是由一系列向量排列形成的一条跨越空间的轨迹。

利用语言进化的约束


关于如何机器翻译一门失传的语言的问题,研究团队想到了从时间上做文章。


任何语言都会随着时间的变化,以某种形式变化,比如在相似的语言里,符号会有同样的形式分布,它们的相关词语有着相同的顺序等。


借助这些规则的约束,如果能够找到相关的语言形式,翻译问题就会迎刃而解。


以此为原理,罗家明团研发了一种技术,测试了两种失传语言,B 类线形文字和乌加里特语。


语言学家很早就研究清楚了,古希腊语的早期形式是由 B 类线形文字编码得到,而在 1929 年发现的乌加里特语则是希伯来语的早期形式。


团队提出的模型架构,编码器和解码器的输入

分别是丢失的语言和已知的语言


利用相关语言的约束规则,他们开发出来的模型,能够以相当高的准确度完成这两种语言的翻译。


对于 B 类线形文字,最终能将 67.3% 的同源词翻译成希腊语。而本次实验,也是首次尝试自动翻译 B 类线形文字。


期待机器学习破译最难古文字


一个难题被解决了,但是,对于世界上至今最难破译的文字如 A 类线形文字,机器能成功翻译吗?


在这篇文章中,没有涉及到 A 类线形文字的研究,但对它们的翻译,却是语言学家都会关心的问题。


当然,在 A 类线形文字能够被机器翻译之前,可能还需要一些突破口。


比如说 ,A 类线形文字和哪种语言有关联,现在还没研究清楚。而此前,将其翻译成古希腊语的尝试都失败了。如果不知道它的祖语言,现行的方法都将失效。


不过有人提出了一种笨办法,用类似穷举的方法,让计算机逐一将它翻译成已掌握的语言,也许就会试出它的对应表达。


如果能够奏效,这将是一项伟大的成就。所以,要做的事情就是,机器翻译在其力所能及的领域,将这些文字与每一种语言都进行对比。


世界上最难破解的四大文字之一:伊比利亚文字同样

A 类线形文字和克里特象形文字也是其中之一


破译人类语言是一个有趣且重要的课题,而现在,机器学习技术让那些探索者们,找到了有力的破解武器。



相关报道:
https://www.technologyreview.com/s/613899/machine-learning-has-been-used-to-automatically-translate-long-lost-languages/


本文系大数据文摘出品,由刘俊寰编译

—— 完 ——

扫描二维码,加入讨论群

获得优质数据集

回复「进群」自动入群

更多精彩内容(点击图片阅读)


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存